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基于 自然 语言 词 对 法 的 文献 主题 新 颖 性 探测 研究 “ 


Ii BR Kii HR Am 郭 继 军 
中 国医 科大 学 图 书馆 ”沈阳 110122 


摘要 : [目的 /意义 ] 提 出 一 个 全 新 的 量化 指标 一 文档 主题 新 疾 度 ,通过 自然 语言 词 对 方法 对 文献 主题 内 
容 的 新 颖 性 进行 探测 研究 ,并 探讨 其 可 行 性 和 优 缺 点 以 及 新 颖 度 与 F1000 推荐 文献 和 引文 指标 之 间 的 关系 。 
[方法 /过 程 ] 以 F1000 为 基础 ,选取 hematology 主题 近 一 个 月 内 推荐 的 文献 ,在 Pubmed 中 查找 并 获取 该 推荐 文 
献 发 表 之 前 6 个 月 内 密切 相关 的 文献 ,构成 整个 文献 集 。 定义 自然 语言 法 新 疾 度 的 概念 .计算 公式 并 利用 Ora- 
cle 数据 库 PL/SQL 语言 进行 编程 ,通过 MetaMap 软件 提取 自然 语言 词汇 进行 文献 主题 新 颖 度 的 运算 。[ 结果 / 
结论 ] 自然 语言 法 在 文献 主题 新 颖 性 探测 的 运算 上 具有 一 定 的 可 行 性 ;文档 主题 新 颖 度 与 F1000 推荐 文献 .3 
用 情况 并 非 成 等 价 关 系 , 分 属于 科技 论文 评价 的 不 同 维度 、 不 同 范畴 ,不 可 一 概 而 论 。 应 将 文档 主题 新 疾 度 这 
了 E31 指 标 与 同行 评议 情况 和 文献 计量 学 等 其 他 相关 论文 评价 指标 结合 起 来 对 文献 进行 综合 评价 分 析 , 选 取 优 
质 文献 给 予 推荐 。 
N 关键 词 : 文献 主题 新 颖 性 探测 ”自然 语言 词 对 ”MetaMap F1000 引文 指标 
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当今 世界 , 随 着 科学 技术 的 飞 吉 发展 ,科研 活动 也 。 “区 A Detense Ac 

N C LEN Nen vanced Research Projects Agency) 发 起 的 一 个 主题 探测 
随 芝 日 站 活 路 ,作为 科研 活动 的 主要 产 出 形式 之 一 的 。 pCionic A and racine 的 子 项 目 _ n 
和 各 论文 ,每 一 天 都 会 有 相当 数量 的 发 表 。 科 研 人 员 n ME | 
入 入 需要 阅读 大 量 相关 文献 来 分 析 学 科 的 发 展 态势 ， TO BM Cis sio detection S new event detection) | 
掌 狂 学 科 的 动态 前 沿 信息 。 极 大 丰富 信息 量 的 同时 也 we 
ABE T HENGLAMMU RU WRA Ete dE pgg MEL LRCIURDRBORTASTEREBMASHEC CAUSAS 
dM Dg s tl b AN (text retrieval conference, TREC ) F 2002 年 第 11 

文献 生 题 的 新 颖 性 息 度 生生 代表 了 该 研究 的 科技 ”次 会 议 上 开始 新 增 了 文本 内 容 新 颖 性 追踪 探测 的 项 


[2] : ^ 23 n 
创新 能 力 和 学 术 影 响 力 水 平 ,如 何在 海量 文档 中 将 新 。 日 。 在 此 之 后 ,国门 外 各 领域 专家 字 者 开展 了 多 种 


SIRET .创新 性 高 的 文献 第 选 出 来 推荐 给 研究 人 员 成 关于 科技 文献 主题 创新 性 、 新 新 性 的 分 析 探 测 研究 。 


为 图 书馆 学 界 中 一 个 重要 的 研究 课题 。 这 样 的 文献 推 Y. Zhang ”以 向 量 空间 模型 为 基础 进行 新 颖 性 的 
荐 不 仅 可 以 大 大 提高 研究 人 员 的 阅读 效率 , 令 其 尽快 ”探测 ,依据 文档 相似 度 给 出 新 络 性 计算 公式 : Novelty 
了 解 掌握 学 科 发 展 的 最 新 .最 快 前 沿 动态 信息 ,还 能 使 Score(dt) =1- is-1 cos dt, di) ,认为 当前 文本 和 以 
其 节约 出 宝贵 时 间 投入 到 更 深入 .更 有 价值 的 科研 活 “ ”前 本 文 之 间 的 相似 性 值 越 大 , 则 新 颖 性 越 小 。C. Ku- 
动 当中 去 ,因此 对 于 科研 人 员 来 说 意义 重大 。 maran 等 四 扩展 修正 了 基于 向 量 空间 的 新 事物 探测 系 


* 本 文系 2017 年 度 辽 宁 省 高 等 学 校 基本 科研 项 目 " 双 一 流 ” 战 略 视野 下 高 校 ESI 排名 现状 的 计量 分 析 与 政策 建议 (项 目 编号 :LQNR201707 ) , 
CALIS 全 国医 学 文献 信息 中 心 2018 年 科研 基金 项 目 “ 基 于 微 信 、 微 课 等 新 媒体 环境 下 医学 高 校 图 书馆 多 元 素养 培养 模式 研究 ”( 项 目 编号 : 
CALIS -2018 -02 -010) 和 CALIS 全 国医 学 文献 信息 中 心 2018 年 科研 基金 项 目 “ 大 数据 环境 下 基于 突 发 监测 的 医学 研究 前 沿 发 展 趋 势 预测 ” 
(项 目 编号 :CALIS -2018 -02 -001 ) 研 究 成 果 之 一 。 
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统 对 于 文档 的 表达 ,通过 结合 使 用 文本 分 类 和 命名 实 
体 技术 ,提高 了 对 事物 新 颖 性 的 探测 精度 。K. Rajara- 
man 等 ”从 神经 网 络 方法 出 发 ,使 用 自 适应 共振 理论 
的 神经 网 络 提出 主题 新 颖 性 探测 .追踪 和 趋势 分 析 3 


的 关键 词 有 着 不 规范 性 和 主观 色彩 , 且 数 量 较 少 ,对 于 
最 新 研究 及 最 新 科技 词汇 的 提出 并 不 敏感 。 本 研究 仿 
BE S. Flora 等 从 文档 到 文档 句 ,再 到 文档 层面 的 文章 新 
颖 度 探 测 方法 ,并 在 参考 借鉴 杨 建 林 等 的 共 词 分 析 、 时 


种 计算 方法 。M，Zhang 等 ”提出 基于 度量 词 重合 度 
标准 计算 公式 OverlapB, = ANBIB 的 新 颖 性 判定 方 
法 ,给 定 一 个 阔 值 ,将 已 有 文本 一 一 判断 其 文本 内 容 是 
DHD, DERE GB ES UBRO. H. P. Zhang 等 " 
用 TREC2008 特定 主题 使 用 句子 的 语义 距离 计算 方法 
来 对 新 颖 性 进行 探测 ,检索 出 新 信息 并 过 滤 掉 元 余 信 
息 。S，Flora 等 中 应 用 文档 - 语句 注释 框架 结构 
( D2S, document -to - sentence ) 方法 对 TREC2004 和 
TREC2003 新 颖 性 追踪 项 目的 文档 数据 进行 新 颖 性 控 
测 F 先 将 文档 转换 成 语句 ,鉴别 每 句 话 的 新 颖 性 ,然后 
在 恒定 阔 值 基础 上 计算 每 篇 文档 的 新 颖 性 分 值 。 试 验 
LEER] D2S 具有 强大 的 根据 文档 新 颖 程度 百分比 探 
淹 各 元 余 信息 的 能 力 , 优 于 根据 准确 率 和 召回 率 的 标 
MESE PUE c IHE o 

沈 律 ”提出 科技 创新 的 一 般 均衡 理论 ,通过 关键 
和 同 频 定 义 了 科技 成 果 重 复 率 、 科 技 成 果 引 用 率 两 项 
摸 半 ,用 于 量化 科技 成 果 的 创新 程度 。 沈 阳 '"” 提出 基 
了 8 链 词 频 度 及 其 他 因素 的 创新 度 来 量化 文档 创新 
WE, 认为 关键 词 在 文档 和 检索 表达 式 中 出 现 的 频 度 K 
键 词 使 用 的 时 间 跨 度 ,用户 互 动 时 对 关键 词 创新 度 的 
请 拆 等 信息 是 计算 关键 词 创 新 度 的 依据 。 胡 淑 礼 和 张 
京 源 "创建 了 一 个 依据 文献 关键 词 及 关键 词 排列 顺 
序 来 定量 计算 文献 资料 新 颖 性 程度 的 数学 公式 ,从 立 
BIE .主要 论点 或 结论 新 度 ,得 出 论点 或 结论 的 主要 
依据 新 度 3 个 不 同 层次 描述 新 颖 性 。 钱 玲 飞 等 定 
义 了 关键 词 交 叉 率 、 共 现 词 生命 指数 .有效 新 词 出 现 率 
3 个 创新 力 评价 指标 ,用 来 进行 学 科 创新 力 的 比较 研 
究 , 有 效 新 词 出 现 率 越 高 则 该 学 科 创 新 保持 力 越 强 。 
而 后 杨 建 林 等 ”在 时 间 点 、 词 频 、 逆 文档 频率 、 共 词 分 
析 思 想 的 基础 上 提出 了 基于 关键 词 词 对 道 文档 频率 的 
主题 新 颖 度 度量 方法 ,定义 了 一 系列 相关 概念 并 给 出 
文档 新 颖 度 的 计算 公式 进行 实证 研究 ,并 得 同一 学 科 
领域 重要 核心 期 刊 刊载 论文 的 平均 主题 新 颖 度 要 高 于 
普通 期 刊 的 结论 。 

国外 学 者 多 分 别 从 向 量 空间 模型 文档 相似 度 、 神 
经 网 络 . 词 重 琶 度 . 语 义 距离 等 方面 出 发 ,从 文档 文档 
^] 文档 - 文档 句 等 不 同 层面 进行 新 颖 性 的 探测 研究 。 
国内 学 者 也 大 多 是 基于 关键 词 . 词 频 各 自 提出 创新 性 
量化 指标 对 文献 新 颖 性 进行 研究 。 然 而 一 篇 文章 标识 


T 


间 点 、 词 频 、 逆 文档 频率 的 基础 上 ,利用 Metamap 能 够 
自动 提取 医学 自然 语言 词汇 ,对 于 识别 最 新 研究 及 新 
兴 词 汇 具 有 高 度 敏感 性 的 特点 ,作者 提出 一 种 基于 自 
然 语 言词 对 的 全 新 量化 指标 - 文档 主题 新 颖 度 ,通过 
同 篇 同 句 共 现 词语 在 体现 文章 关联 上 的 潜在 影响 及 主 
题 演变 结构 变化 情况 ,对 文献 主题 的 新 颖 性 进行 研究 。 
该 思想 所 要 表达 的 是 在 某 一 文献 集 内 ,搜寻 某 一 文档 
在 先前 文档 中 没有 出 现 过 的 信息 ,其 规律 是 含有 某 一 
共 现 自然 语言 词 对 的 文献 发 表 越 早 , 则 其 新 颖 度 越 高 。 
换 句 话说 ,就 是 一 对 共 现 自然 语言 词 对 最 早出 现时 ( 文 
献 集 内 第 一 次 提出 ) ,最 能 代表 其 是 新 新 的 、 新 兴 的 ,而 
后 该 词 对 的 出 现 则 随 着 文献 发 表 数 量 的 增多 、 时 间 的 
延续 在 代表 文档 主题 新 颖 性 方面 逐渐 弱化 。 

本 文 以 F1000 为 基础 ,选取 自然 语言 词 对 对 文献 
主题 新 颖 性 进行 探测 分 析 ,并 利用 Web of science 中 的 
文献 引用 情况 及 F1000 推荐 文献 得 分 (FFa) 进行 对 照 
分 析 ,探讨 是 否 文档 主题 新 颖 度 与 文献 计量 指标 和 
F1000 得 分 存在 某 种 隐藏 的 关系 以 及 自然 语言 词 对 方 
法 的 可 行 性 和 优 缺 点 。 

2 实验 材料 与 方法 
2.1 研究 主题 

本 研究 选取 F1000 数据 库 中 hematology 主题 近 一 
个 月 内 推荐 的 38 篇 文献 (下 载 日 期 为 2014 年 7 月 30 
日 ) 为 基础 ,并 在 Pubmed 数据 库 中 查找 与 这 38 篇 文献 
密切 相关 的 文献 (related citations) ,截取 这 38 篇 文献 
网 络 发 表 时 间 前 6 个 月 的 密切 相关 文献 共计 523 篇 ， 
经 限定 选取 文献 类 型 (PT) 中 含有 期 刊 论文 (journal ar- 
ticle) JJ E PEIS X (historical article) .临床 试验 (clini- 
cal trial) .临床 试验 ,工期 (clinical trial, phase I) ,临床 
Wi, II # (clinical trial, phase IT) 临床 试验 ,II 期 
(clinical trial, phase IIT) ,临床 试验 ,IV Hf] ( clinical tri- 
al, phase IV ) .临床 对 照 试 验 (controlled clinical trial) 、 
随机 对 照 试验 (randomized controlled trial )、 对 比 研 究 
( comparative study) 多 中 心 研 究 (multicenter study ) | TÉ 
佑 研究 (evaluation study) .体外 研究 (in vitro) 的 文献 作 
为 研究 对 象 ,这 些 原始 论文 最 能 代表 一 个 学 科 的 最 新 
前 沿 动态 发 展 变化 情况 。 去 除 文 献 类 型 (PT) 中 含有 
病例 报告 (case reports ) 、 综 述 (review)\ 信 把 (letter)、 
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FEIE ( comments ) , 39r H] ( news ) , 25 2E 4) jp ( meta -analy- 


sis), R A JE A N (consensus development confer- 


定义 2 : HATE A W h 8] A RE, F tO 
为 文档 D 里 同一 语句 中 共同 出 现 的 两 个 自然 语言 词 ， 


ence) 、 编 稿 (editorial ) 以 及 无 摘要 、 非 英文 的 文献 ,最 
终 纳 入 文献 集 内 的 统计 文献 共计 401 篇 ,其 中 含有 
F1000 推荐 文献 33 篇。 笔者 将 全 部 401 篇 文献 的 检索 
结果 保存 为 MEDLINE 格式 ,用 于 提取 自然 语言 词汇 并 
进行 新 颖 度 的 运算 。 

2.2 研究 方法 

本 文 使 用 基于 MetaMap. 自然 语言 词 对 的 文档 主题 
新 颖 性 探测 分 析 方法 ,以 下 简称 自然 语言 法 。 

本 研究 方法 将 基于 以 下 几 个 原则 : 

(1) 共 现 原 则 (co-occurence) : 共 词 分 析 法 (co-term 
analysis ) 最 早 是 在 20 世纪 70 年 代 中 后 期 由 法 国文 献 
计量 学 家 提出 的 ,其 思想 来 源 于 文献 计量 学 中 的 引文 
看 你 与 同 被 引 的 概念 。 共 词 分 析 法 的 基本 原理 是 统计 
4 词组 (关键 词 或 主题 词 ) 两 两 在 同一 篇 文献 中 出 现 
数 ,以 此 作为 基础 进行 聚 类 分 析 , 从 而 得 出 这 些 词 
语 声 间 的 亲 下 远 近 关 系 ,进而 分 析出 这 些 词语 所 代表 
的 常 科 或 者 主题 的 结构 变化 情况 。 本 文 的 自然 语 
童 启 对 法 则 提出 同 篇 同 句 共 现 的 概念 , 即 在 同一 文章 
卫 语 句 (这 里 指 同一 句号 内 ) 中 两 个 词语 共同 出 现 ， 
笔 欧 认为 在 同一 语句 中 共同 出 现 的 两 个 词语 比 起 在 同 
篇 文章 中 共同 出 现 的 两 个 词语 更 具有 某 种 潜藏 的 内 在 
联 标 ,在 揭示 文章 的 最 新 研究 ,内涵 和 主题 上 要 比 后 者 
更 项 有 说 服 力 以 及 深远 意义 。 

它 (2) 时 间 点 原则 (time) : 即 在 一 定 文献 集 内 ,含有 
某 自然 语言 词 对 的 文献 发 表 得 越 时 ,其 所 代表 的 新 颖 
性 稳 度 越 高 。 

(3) 自 然 语言 词 对 道 文档 频率 原则 (inverse docu- 
ment frequency of naturallanguage pairs , NLPIDF ) : 即 一 
对 共 现 的 自然 语言 词 对 在 量化 某 文档 的 主题 新 颖 度 时 
的 价值 随 着 在 该 文档 之 前 发 表 的 、 包 含 该 对 共 现 自然 
语言 词 对 的 文档 数量 的 增加 而 降低 o 

本 研究 基于 以 上 原则 ,在 同 篇 同 句 共 现 的 基础 上 ， 
定义 了 自然 语言 词 时 间 逆 文档 频率 、 自 然 语言 词 对 时 
间 逆 文档 频率 文档 句 新 颖 度 以 及 文档 主题 新 颖 度 的 
概念 。 

定义 1 :自然 语言 词 时 间 逆 文档 频率 , 若 t 为 文档 
D 中 的 一 个 自然 语言 词 ,在 文档 D 之 前 发 表 的 所 有 文 
档 中 包含 自然 语言 词 + 的 文档 数 为 N, 则 称 N+1 为 以 
文档 D 为 参照 的 自然 语言 词 t 的 文档 频率 , 记 为 NLT- 
IDF(D,t) , 称 N+1 的 倒数 为 以 文档 DD 为 参照 的 自然 
语言 词 的 时 间 逆 文档 频率 , 记 为 NLTIDF(D,t) 。 
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在 文档 D 之 前 发 表 的 所 有 文档 中 同一 句 中 同时 包含 自 
Ais eis] d 2 的 文档 数 为 N, 则 称 N+1 为 以 文档 D 
为 参照 的 自然 语言 词 对 tl a2 的 文档 频率 , 记 为 NLPT- 
IDF(D,t1,02) , 称 N+1 的 倒数 为 以 文档 D 为 参照 的 
自然 语言 词 对 l t2 的 时 间 逆 文档 频率 , 记 为 NLPTIDF 
(D,t1,(2), 
显然 得 到 NLPTIDF (D,t1,12) z ( NLPTIDF( D, 
t1) ,NLPTIDF(D, :2)), 

定义 3: 文档 名 新 颖 度 ,文档 D 中 第 S 句 中 所 有 以 
自身 为 参照 的 自然 语言 词 对 的 时 间 逆 文档 频率 的 平均 
值 称 为 文档 D 中 第 S 句 的 新 颖 度 , 记 为 NOV(D,S)。 
计算 公式 为 : 


,ss NLPTIDF(D, t, 

NOV(D,S) = ie 3 : 
其 中 ,ti 为 文档 D 的 第 S 句 中 的 第 和 第 j 个 
自然 语言 词 ,显然 ,NOV(D,S) e(0,1]。 

定义 4 :文档 主题 新 蜂 度 , 耕 一 个 文档 D 中 含有 上 
个 句子 ,那么 所 有 这 人 个 句子 的 文档 名 新颖 度 的 平均 
值 则 为 该 文档 的 主题 新 颖 度 , 记 为 NOV(D,N), 计 算 
Y: NOV(D,S,) 

K 

其 中 ,Sk 为 该 文档 中 第 个 句子 的 文档 名 新颖 
度 , NOV(D,N) e(0,1]。 
2.3 研究 工具 

本 研究 选择 美国 国立 医学 图 书馆 建立 的 自由 文本 
到 UMLS 超级 叙 词 的 映射 工具 MetaMap ^, EERE 
够 自动 提取 自然 语言 词汇 ,对 于 揭示 新 颖 概念 .新 兴 科 
技 词汇 方面 有 着 自然 的 优势 ,对 于 新 颖 度 的 计算 有 重 
要 意义 。MetaMap 直接 运行 读 取 Medline 格式 数据 来 
提取 自然 语言 词汇 ,并 利用 中 国医 科大 学 医学 信息 学 
系 自主 研发 的 “MetaMap 结果 处 理 软件 ”对 MetaMap 批 
量 处 理 后 的 结果 进行 再 次 处 理 ,得 到 将 经 过 MetaMap 
匹配 后 的 每 个 词 出 现 的 频次 ,并 生成 词 篇 矩阵 和 共 现 
和 矩阵。 利用 MetaMap 结果 处 理 软件 的 一 个 中 间 步 又 提 
取 所 需 内 容 进 行 计算 。 该 步骤 可 以 提取 出 每 篇 文章 中 
每 一 句 话 内 出 现 的 自然 语言 词汇 ,形成 下 述 列 表 :1ID 
代表 程序 运行 流水 号 ,article 对 应 Pubmed 文章 中 的 
PMID 号 ,word 表示 用 MetaMap 软件 运行 metamaping 
后 提取 出 的 最 佳 匹配 映射 词语 ,classes 是 语义 类 型 ， 
part 表示 该 词语 在 文摘 中 的 位 置 (ti 表示 标题 ,ab 表示 
摘要 ) sentence 表示 该 词语 出 现在 第 几 句 话 中 。 本 文 
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中 自然 语言 词 对 方法 所 体现 的 同 句 共 现 , 即 指 article 
一 致 part 一 致 sentence 一 致 的 共同 出 现 的 两 个 词语 
组 成 共 现 词 对 ,保存 为 EXCEL 格式 进行 自然 语言 法 主 
题 新 颖 度 的 运算 ,从 401 篇 文献 中 共计 提取 记录 约 5 
万 多 条 ,组 合成 词 对 后 共计 约 17 万 多 条 。 

随后 利用 升级 版 本 Oracle 10g "数据库, 通过 
PL/SQL 语言 进行 编程 ,根据 本 文 所 定义 的 文档 主题 新 
颖 度 概 念 的 算法 ,来 计算 出 每 篇 文章 的 新 颖 度 。 同 有 
借用 F1000 得 分 指标 FFa 和 SCI 数据 库 中 引用 频次 这 
一 指标 来 对 计算 出 的 新 颖 度 来 进行 比 对 分 析 , 并 探讨 
该 方法 的 可 行 性 和 优 缺 点 。 


3 ”实验 结果 和 结论 


c 


(EE 1) 
PMID AARAA ”SCI 被 引 频次 出 版 年 月 
* 23808982 * 0.645 * 126 x 2013 年 8 H 
* 23940282 * 0.734 *21 * 2013 年 1 H 
* 24501014 * 0.835 *0 * 2014 年 5 月 
* 24658077 * 0.892 * 10 * 2014 年 4 月 
*24679062 * 0.628 * 39 x 2014 年 4 月 
*24703711 *0.948 * 未 收录 x 2014 年 3 月 
*24762436 * 0.907 *5 * 2014 年 6 月 
*24792119 * 0. 864 * 10 * 2014 年 5 H 
* 24799481 * 0. 766 *4 x 2014 年 6 H 
* 24916509 * 0. 693 *2 x 2014 年 8 H 


注 :* 代表 F1000 推荐 文献 


表 2 自然 语言 法 文档 主题 新 颖 度 结果 分 区 


整个 文献 集 自然 语言 法 文档 主题 新 颖 度 及 分 区 新 颖 度 分 区 自然 语言 法 (篇 ) 所 占 比例 (% ) 
NOV(D,N) e ([1,1] 1 0.25 
分 析 。 部 分 结果 见 表 1 与 表 2。 
umma rs NOV(D,N) e (1,0.9] 173 43.14 
R1 自然 语言 法 计算 的 文档 主题 新 颖 度 
NOV(D,N) e (0.9,0.8] 148 36.91 
及 SCI 引用 情况 ( 部 分 ) NOV(D,N) e (0.8,0.7] 63 15.71 
自然 语言 法 新 颖 度 SO 被 引 频次 出 版 年 月 NOV(D,N) e (0.7,0.6] 12 2.99 
0.719 1 2014 年 7 月 NOV(D,N) e (0.6,0.5] 4 0.99 
0.58 0 2014 4£ 10 H NOV(D,N) e (0.5,0.4] 0 0 
DM " 2014 年 11 月 AVERAGENOV(D,N) 0.8713 
0. 847 0 2014 4E 8 H oam a " 
0.928 未 收录 2014 年 
文献 总 数 401 100 
0. 833 未 收录 2014 年 
a 2002 年 1 月 自然 语言 法 计算 出 全 部 文献 集 内 401 篇 文献 的 新 
0:969 id aia: RISE ,其 中 最 高 值 为 1, 最 低 值 为 0.525。 计 算 结果 共 
0.975 101 2007 年 6 月 、 、 、 
7 _ 分 为 6 个 区 间 , 平 均 新 新 度 为 0.871 3, 大 于 平均 新 新 
717392301 0.988 375 2007 年 3 月 
Ciys40169 0.939 197 2007 年 6 月 度 的 文献 有 216 篇 , 占 文献 总 数 的 53. 87% o 新 颖 度 为 
24336569 0.972 115 2014 年 1 月 1 的 文章 为 整个 文献 集 内 发 表 最 早 的 文献 ,其 所 包含 
24336571 0.933 110 2014 年 1 月 的 自然 语言 词 对 均 是 第 一 次 提出 ,标识 为 最 新 新 文献 ， 
BO SERIE SET ENT 作为 后 面 发 表 文 献 在 搜寻 之 前 文档 中 没有 出 现 过 的 文 
* 17922009 c n pn 本 信息 的 参照 标准 。 计 算出 的 新 颖 度 的 分 区 差异 并 不 
x 14726385 x 0. 797 *247 «2004 年 5 月 SNNT B E T 
] 是 特别 明显 ,大 多 数 文献 新 颖 度 集中 在 (1,0.8] 区 间 ， 
* 17088571 * 0.787 211 * 2006 4E 12 月 
个 文献 焦 这 可 能 dii 
E «0.948 «287 «2007 年 5 月 占 整 个 文献 集 比 例 的 80.05% 。 这 可 能 由 于 文献 集 选 
117928528 0.734 147 «2008 年 1 月 取 过 程 中 已 经 是 由 Pubmed 数据 库 后 台 进 行文 献 相 似 
* 17984186 * 0. 855 «280 «2007 年 10 月 性 计算 过 后 搜集 的 文献 ,研究 主题 .内容 上 相关 度 均 较 
#18334616 SOUS id: «2008556, H 高 ,因此 差异 较 小 。 笔 者 预期 ,单独 以 某 一 主题 进行 检 
iic bd à i A 索 获 取 文 献 集 后 计算 出 的 新 颖 度 分 区 、 差 异 情况 会 较 
* 21803855 1 0.916 +157 *2011 年 9 月 
-— 明显 。 
22237781 » 0. 868 x 4822 * 2012 4£ 1-2 J 
z 23021219 x 0.927 459 2012 年 9 月 3.2. 自然 语言 法 计算 的 F1000 推荐 文献 主题 新 颖 度 
* 23270003 * 0. 525 33 «2013 年 2 月 与 SCI 引用 情况 F1000 得 分 (FFa) 及 文章 所 在 期 刊 发 
* 23738544 * 0. 858 * 92 *2013 年 6 月 表 当 年 影响 因子 (下 值 ) 之 间 的 汇总 情况 和 分 区 结果 ， 
* 23782158 x* 0.64 x* 198 *2013 年 7 月 具体 见 表 3 和 表 4。 
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表 3 F1000 推荐 文献 主题 新 颖 度 与 SCI 引用 
情况 .F1000 得 分 及 正 值 汇总 


自然 语言 法 SCI 


D 新 颖 度 。 被 引 次 数 出 版 年 月 Me Ff 
* 11986207 * 0.877 * 571 x2002 年 5 月 2 9.631 
x 12522009 * 0.736 * 157 x 2003 年 5 月 J 10.12 
* 14726385 * 0.797 * 247 * 2004 年 5 月 1 9.782 
* 17088571 * 0.787 * 211 * 2006 年 12 H 1 13. 598 
* 17460043 * 0.948 * 287 * 2007 年 5 月 7 9.598 
* 17928528 * 0. 734 * 147 x2008 年 1 月 1 10.432 
* 17984186 * 0.855 * 280 x 2007 年 1 月 1 15.484 
* 18334676 * 0.774 * 200 * 2008 年 6 月 1 10. 432 
* 21378274 * 0.815 * 68 *2011 年 4 月 1 9.898 
* 21803855 * 0.916 * 157 x2011 4E 9 H 2 9.898 


* 22237781 * 0. 868 *4822 *20124E1-2 H 1 153.459 


7323021219 * 0.927 *59 — 201249 H2 31.957 
3 *0.525 *33  *20134Æ2}H 1 17.9% 
*0. 858 *92 — «201346 ]] 13 54.42 

«0.64 «108 — «201347 d 3 54.42 

* 0.645 «126 — «201348 ] 2 54.42 

* 0. 734 *21 ”x*2013 年 1 月 2 9.775 

* 0.835 *0 — *20144£5 d. 1 4.901 

* 0. 892 «10 — «20144£4 d. 2 28.054 

* 0. 628 x*39  *20144Æ4} 11 54.42 

*0.948 sKK *2014 年 3 月 3 33.116 

* 0. 766 *4 ”x*2014 年 6 月 1 17.96 

* 0. 835 *0 — *20144E7 H. 1 4.592 

«0. 693 x*2 «201448 d. 1 9.775 

0.881 x*1] «2014464 2 9.775 

(924162436 * 0.907 *5 ”x*2014 年 6 月 3 13.765 
24936467 * 0. 826 «0 ”#2014 年 6 月 2 一 
T 24952903 » 0. 823 x*3 #2014 年 9 月 3 39.08 

#24958848 *0. 861 *1 x2014 年 6 月 2 13.912 

* 24986891 *0. 884 *6  *20144Æ7H 2 16.378 

* 25008523 *0. 842 *14 ”#*2014 年 7 月 4 42.351 

*24792119 * 0. 864 *10 — «201445 ]j 2 22.151 
£ 25048415 40. 992 x*0 — «201447 H. 1 1.236 


笔者 预计 统计 分 析 文 档 主题 新 颖 度 与 被 引 频 次 和 
F1000 得 分 以 及 期 刊 影响 因子 之 间 存 在 茶 种 隐藏 的 内 
在 联系 ,但 对 上 述 表 格 经 过 几 类 统计 方法 计算 后 判断 均 
没有 统计 学 意义 。 因 此 得 出 自然 语言 法 新 颖 度 和 文章 
引用 频次 、 及 F1000 得 分 和 期 刊 影响 因子 TF. 值 都 不 相 
关 , 几 个 指标 均 不 在 同一 评价 维度 范畴 ,不 可 同一 比较 。 

文章 被 引 量 主要 表明 了 文献 的 影响 力 和 学 术 价 
值 ,与 文章 的 创新 性 .新颖 度 没 有 必然 联系 。 而 期 刊 影 
响 因子 代表 着 该 种 期 刊 在 近 两 年 的 引用 情况 ,无 法 单 
独 代表 某 一 篇 文献 的 新 颖 性 程度 及 影响 力 ,不 可 一 概 
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而 论 , 不 属于 同一 范畴 ,与 宋 丽 萍 等 ”研究 期 刊 影响 
因子 与 单 篇 论文 影响 力 背离 的 结论 不 谋 而 合 。 虽 然 
F1000 是 推荐 专家 就 其 推荐 论文 的 学 术 内 容 出 发 ,从 
创新 性 、 重 要 性 、 合 理性 、 方 法 学 等 方面 撰写 的 评论 评 
价 并 进行 的 评分 ,但 多 数 推荐 文献 得 分 为 1 ,更 趋向 于 
一 种 长 尾 分 布 。F1000 最 初 目标 是 在 论文 出 版 后 短期 
应 用 的 指标 ,以 便 快速 地 通过 同行 专家 评级 ,评估 论文 
的 预期 影响 力 , 从 而 实现 高 影响 力 论文 的 深度 过 
1E". 。 然 而 一 篇 科学 论文 的 影响 力 需要 在 它 被 发 表 
几 年 以 后 才能 测量 ,这 便 包 括 了 研究 领域 .出 版 延迟 、 
期 刊 的 可 获取 .引用 周 期 等 影响 因素 2 。 以 本 研究 为 
例 ,虽然 检索 的 是 近 一 个 月 内 推荐 文献 , 仍 有 5 年 10 
年 甚至 更 长 时 间 以 前 的 优质 文献 获得 了 推荐 。 

RA ”F1000 推荐 文献 自然 语言 法 文档 主题 

新 颖 度 统计 分 区 结果 


F1000 推荐 文献 新 疾 度 自然 语言 法 (篇 ) 所 占 比 例 (% ) 
NOV(D,N) e([1,1] 0 0 
NOV(D,N) e (1,0.9] 6 18.18 
NOV(D,N) e (0.9,0.8] 15 45.45 
NOV(D,N) e (0.8,0.7] 7 21.21 
NOV(D,N) e (0.7,0.6] 4 12.12 
NOV(D,N) e (0.6,0.5] 1 3.3 
NOV(D,N) e (0.5,0.4] 0 0 
AVERAGENOV ( D, N) 0. 8155 

大 于 平均 新 颖 度 20 60.61 

文献 总 数 33 100 


自然 语言 法 计算 了 F1000 推荐 的 全 部 33 篇 文献 ， 
新 颖 度 在 0. 525 - 0. 992 之 间 ,计算 结果 分 为 6 个 区 
间 ,平均 新 颖 度 为 0.815 5 ,大 于 平均 新 颖 度 的 文献 有 
20 篇 , 占 文献 总 数 的 60. 6196 ,F1000 推荐 文献 新 颖 度 
高 于 平均 值 的 比例 (60.61% ) 相 比较 整个 文献 集 (53. 
86% ) 要 更 多 。 
3.3 ”自然 语言 法 计算 的 整个 文献 集 文献 和 F1000 推 
荐 文献 在 SCI 中 引用 情况 

自然 语言 法 计算 的 文献 集 文献 和 了 1000 推荐 文献 
在 SCI 中 引用 情况 对 比 见 表 5。 

自然 语言 法 计算 的 401 篇 文献 集中 ,被 SCI 收录 
的 文献 为 368 篇 , 占 统计 文献 的 91.77% ;SCI 未 收录 
的 文献 为 33 篇 , 占 统计 文献 的 8.23% 。 引 用 次 数 最 多 
为 4 822 次 ,最 少 为 0 次 。 引 用 次 数 在 100 次 以 上 的 文 
献 有 29 篇 , 占 SCI 引 用 集 的 7.88% 。 引 用 次 数 为 0 的 
文献 有 46 篇 , 占 SCI 引用 集 的 12.5% 。SCI 引用 集中 
平均 引用 次 数 为 42. 98 ,大 于 平均 引用 次 数 的 文献 为 
64 篇 , 占 SCI 引用 集 的 17.39% 。 
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表 5 自然 语言 法 计算 的 文献 集 文 献 和 F1000 
推荐 文献 在 SCI 中 引用 情况 对 比 


文献 集 F1000 推荐 文献 
数据 库 文献 总 数 AO 占 比 (%) 篇 数 HEA) 
401 100 33 100 
SCI 引用 > 100 29 7.23 12 36.36 
100 > 引用 >0 293 73.07 16 48.48 
引用 =0 46 11.47 4 12.12 
合计 368 91.77 32 96.97 
> 平均 64 17.39 5 15. 15 
SCI 未 收录 33 8.23 1 3.03 


自然 语言 法 计算 的 F1000 推荐 的 33 篇 文献 中 ,被 
SOE 收 录 的 文献 为 32 篇 , 占 统计 文献 的 96. 97% ;SCI 
看 区 录 的 文献 为 1 篇 , 占 统计 文献 的 3.03% 。 引 用 次 
MI 4 4 822 次 ,最 少 为 0 次 。 引 用 次 数 在 100 次 以 
-的 文 献 有 12 篇 , 占 SCI 引用 集 的 36. 36% 。 引 用 次 
ORO 的 文献 有 4 篇 , 占 SCI 引用 集 的 12. 12% ,这 4 
篇 区 章 均 发 表 在 检索 时 间 点 的 前 三 个 月 ,由 于 刚 发 表 ， 
时 加 过 新 而 尚未 被 引用 。SCI 引用 集中 平均 引用 次 数 
3233. 125 ,大 于 平均 引用 次 数 的 文献 为 5 篇 , 占 SCI 
ati 15. 15% 。 可 以 看 到 F1000 推荐 文献 中 SCI 引 
用 次数 普遍 高 于 整个 文献 集 , F1000 推荐 文献 的 平均 
引 明 次 数 也 高 于 整个 文献 集 , 进而 从 侧面 说 明了 
F1860 推荐 文献 的 高 价值 度 。 

己 因 整个 文献 集 时 间 跨 度 较 大 ,本 文 又 对 同年 份 发 
表 领 献 进行 一 一 比较 :2002 年 文献 集 内 被 引 频次 大 
于 100 次 的 有 6 篇 ,其 中 F1000 推荐 文献 3 篇 ;2003 
年 .2004 年 和 2006 年 文献 集中 被 引 频 次 大 于 100 次 
的 只 有 F1000 推荐 的 3 篇 文献 ;2007 年 文献 集 有 7 
篇 文献 被 引 频次 大 于 100 次 ,其 中 含 F1000 推荐 文献 
5 篇 ;2008 年 文献 集 15 篇 文献 ,只 有 2 篇 F1000 推荐 
文献 被 引 频次 大 于 100 ;2011 年 F1000 推荐 文献 与 同 
FE 发 表 文献 相 比 ,被 引 频 次 排名 为 前 两 位 ;2013 和 
2014 年 F1000 推荐 文献 和 文献 集 文献 在 被 引 频 次 上 
差异 不 明显 ,可 能 是 由 于 文献 发 表 时 间 太 新 .引用 周 
期 等 缘故 而 未 体现 出 ,但 2014 年 被 引 频次 最 高 的 2 
篇 文献 仍 为 L000 推荐 文献 。 此 外 ,SCIE 源 期 刊 有 8 
篇 文献 集 文献 因 SCIE 数据 库 收录 时 间 的 延迟 性 ,在 
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4.1 探测 文档 主题 新 颖 度 的 意义 

创新 是 学 术 活 动 的 灵魂 ,作为 科学 研究 成 果 的 学 
术 论著 ,其 基本 特点 就 是 ”有 新 的 内 容 , 创 造 新 的 知 
识 ” ,而 新 内 容 、 新 知识 的 多 少 是 用 “知识 单元 ” (或 “ 信 
Est") SER T 。 本 研究 所 提出 的 文档 主题 新 颖 
度 , 是 对 文献 评价 的 一 种 方法 ,是 针对 文献 的 内 容 方 
面 ,通过 自然 语言 方法 ,对 于 词语 出 现 的 频率 和 趋势 规 
建 进 行 统计 运算 分 析 来 给 出 该 篇 文献 在 整个 文献 集 内 
所 体现 的 新 颖 程度 。 自 然 语 言 法 是 通过 同 篇 同 句 共 现 
词 对 的 逆 文 档 频率 来 反映 文献 主题 内 容 方面 的 新 笑 性 
程度 ,基本 思想 也 是 搜寻 先前 没有 在 该 文档 中 出 现 过 
的 信息 。 
虽然 新 痢 性 只 是 文献 具备 创新 性 的 必要 而 非 充分 
条 件 , 具 有 新 颖 性 的 文献 不 一 定 就 具有 高 水 平和 高 影 
1 7] ,但 其 在 科研 过 程 中 仍 具备 一 定 的 科研 价值 ,从 中 
可 以 发 现 最 新 研究 进展 ,了 解 学 科 主 题 的 发 展 趋势 。 
我 们 在 推荐 阅读 文献 时 ,也 可 以 参考 文档 主题 新 颖 度 
这 个 指标 进行 文献 的 优选 ,从 大 量 的 文档 流 当 中 ,选取 
出 新 颖 度 高 创新 性 高 的 文献 ,比如 提出 新 观点 .新 方 
法 ,新 的 理论 探索 的 文献 ,向 科研 人 员 进 行 推荐 ,帮助 
其 了 解 最 新 的 学 科 发 展 态 势 和 前 沿 ,这 样 可 以 大 大 提 
高 科研 人 员 的 阅读 效率 。 
4.2 自然 语言 法 可 行 性 分 析 及 优 缺 点 

自然 语言 法 是 在 同 篇 同 句 共 现 基础 上 进行 的 运 
算 ,笔者 认为 同 篇 同 句 共 现 词语 要 比 单纯 同 篇 文章 共 
现 词语 在 体现 文章 概念 .主题 ,内涵 上 更 具有 一 定 的 淤 
在 联系 。 自 然 语言 法 选取 的 是 自然 语言 词汇 ,提取 自 
题目 和 摘要 部 分 ,是 未 经 规范 化 的 自然 词汇 ,可 以 在 一 
定 程度 上 揭示 主题 意义 。 该 方法 在 进行 运算 时 可 以 没 
有 时 间 的 限制 而 将 整个 文献 集 内 的 全 部 文献 进行 运算 
得 到 不 同 的 新 颖 度 。 同 时 , 随 着 MetaMap 源 词 表 的 不 
断 更 新 ,在 提取 自然 语言 词汇 方面 ,可 以 把 新 颖 的 、 最 
近 出 现 的 一 些 科 技 词 汇通 过 MetaMap 软件 提取 出 来 ， 
这 对 于 利用 自然 语言 法 计算 主题 新 突 度 来 揭示 出 新 兴 
的 主题 概念 等 内 容 有 着 高 度 的 价值 。 
4.3 ”文档 主题 新 颖 度 .F1000、 引 文 指标 之 间 的 关系 

本 研究 证 明 自 然 语言 法 计算 出 的 文档 主题 新 家 度 
与 F1000 得 分 .引文 指标 相关 度 较 低 。 文 档 主题 新 颖 


一 个 


本 文 进 行 比较 研究 时 未 被 收录 故 无 法 进行 引用 指标 
的 比较 。 


度 高 ,F1000 得 分 和 引用 情况 不 一 定 高 ,文档 新 颖 度 
低 ,F1000 得 分 和 被 引 频 次 不 一 定 就 少 。 文献 新 疾 性 
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和 文献 影响 力 及 论文 质量 分 属于 不 同 的 评价 维度 , 因 
此 不 能 进行 同一 比较 。 

科学 文献 的 引用 与 被 引用 ,说 明了 科学 知识 和 情 
报 内 容 的 继承 和 利用 ,标志 着 科学 的 发 展 ” 。 通 过 文 
章 之 间 的 相互 引用 关系 来 反映 科技 成 果 的 学 术 价 值 以 
及 学 术 地 位 ,然而 被 引 量 是 随 着 时 间 的 发 展 而 逐步 形 
成 的 引用 关系 ,有 相对 的 时 间 涉 后 性 和 马 大 效应 的 影 


12 篇 是 被 编辑 退 稿 的 。 因 此 研究 人 员 表 示 ,同行 评审 
在 预测 “良好 的 ”论文 方面 是 有 效 的 ,但 可 能 难以 识别 
出 卓越 和 (或 ) 突 破 性 的 研究 。 

宋 丽 萍 等 在 基于 F1000 与 WOS 同行 评议 与 文 
献计 量 相关 性 的 研究 指出 ,在 一 定 程度 上 ,F1000 因子 
与 WOS 给 出 一 致 性 结论 ,文献 计量 学 指标 与 专家 同行 
评议 结果 有 着 显著 的 正 相 关 性 ,但 也 有 一 些 F1000 因 


响 ,对 于 在 主题 新 兴 阶 段 的 新 颖 性 分 析 探测 有 着 其 局 
限 性 ,而 且 与 文档 新 颖 性 没有 必然 的 联系 。 
美国 社会 科学 家 托马斯 ， 库 恩 (T. S. Kuhn) 
的 科学 范式 概念 提出 创新 型 研究 可 分 为 两 种 ,一 种 是 
在 现 有 研究 范式 下 对 已 有 研究 的 补充 和 发 展 ,推动 科 
学 的 累积 式 渐进 ,另外 一 种 是 导致 科学 革命 的 创新 性 
2538s. .高 风险 以 及 转化 型 研究 , 属于 革命 性 的 科学 突 


25] 


CO 同行 评议 是 评估 和 酝酿 科学 研究 的 主要 机 制 
众 注 一 个 科学 评价 文献 的 手段 方法 ,表明 该 领域 的 专 
窜 每 者 对 文献 的 评价 意见 ,与 文章 价值 度 影响 力 以 及 
E) 性 程度 也 没有 必然 的 联系 。 杜 建 唐 晓 利 武 夷 山 
要 团 队 " 研 究 了 是 什么 在 影响 着 同行 评议 和 引文 
指 杖 在 评价 学 术 论文 上 的 差异 ,指出 F1000 推荐 专家 
大 都 会 给 文章 贴 上 标识 ,其 中 标识 为 “新 发 现 “ 确 认 ” 
“ 援 术 进 步 “ 综 述评 论 " 和 "系统 综述 /meta 分 析 " 的 论 
文 入 到 了 相对 高 的 被 引 但 却 很 少 被 同行 推荐 ,这 些 论 
文 多 为 “确认 型 研究 "和 “证 据 型 研究 ”; 标 识 为 有趣 
候 妥 "“ 争 议 “ 反 驱 /颠覆 "“ 提 供 新 药 才 点 "“ 能 改变 
临 距 实 践 "的 论文 受到 专家 的 高 度 推荐 但 被 引 次 数 却 
相对 较 少 ,多 为 “变革 型 研究 "和 “转化 型 研究 ”"。 这 一 
研究 表明 了 引用 行为 体现 出 学 术 共 同体 内 作者 之 间 的 
知识 关系 ,与 引文 指标 相 比 ,同行 评议 指标 更 适合 于 评 
价 转 化 型 研究 变革 型 研究 或 高 风险 研究 , 即 一 项 研究 
所 具有 的 可 能 颠覆 现 有 范式 的 潜能 以 及 对 临床 实践 的 
适用 性 ,通过 实践 者 的 评判 才能 得 以 更 好 体现 。 
美国 (国家 科学 院 院 刊 )》 上 的 一 项 研究 分 析 了 科 
学 同行 评审 的 有 效 性 。 加 拿 大 多 伦 多 大 学 K，Siler 及 
其 同事 使 用 了 2003 年 和 2004 年 提交 给 3 个 主要 的 医 
学 期 刊 (内 科学 年 鉴 )《 英 国医 学 杂志 》 和 《 柳 叶 刀 》 的 
1 008 份 手稿 的 数据 集 , 评 估 了 获得 编辑 和 同行 评审 者 
不 同 评价 的 论文 的 引用 结果 差异 。 该 项 研究 发 现 这 3 
份 医学 期 刊 曾 拒 绝 了 许多 之 后 获得 高 引用 率 的 论文 ， 
包括 14 篇 引用 数量 最 多 的 论文 ,而 这 14 篇 论文 中 的 
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子 高 的 文章 没有 被 高 频 引 用 ,两 种 方法 的 在 评价 论文 
质量 上 均 存在 局 限 性 和 不 足 , 不 足以 单独 作为 评价 标 
准 。 文 献计 量 学 指标 可 能 会 遗漏 一 些 刊载 重要 成 果 的 
论文 ,而 这 些 论文 恰恰 又 是 专家 们 评价 的 优秀 论 
X 。 随 后 宋 丽 萍 等 在 科学 评价 视角 下 F1000 Men- 
deley 与 传统 文献 计量 指标 的 比较 中 也 指出 ,数字 时 代 
论文 学 术 影响 力 科学 评价 多 维 格局 已 经 到 来 ” 。 


5 本 研究 的 不 足 


5.1 自然 语言 词 对 提取 受到 MetaMap 本 身 自由 度 的 


本 研究 中 自然 语言 词 对 是 在 MetaMap 软件 基础 上 
提取 的 ,受到 MetaMap 本 里 自由 度 的 影响 , MetaMap 提 
取 自 然 语 言词 汇 的 效果 对 于 该 方法 的 计算 起 到 了 关键 
的 制约 作用 。 由 于 其 词汇 源 的 不 断 更 新 , MetaMap 提 
取 新 兴 科 技 词汇 的 效果 好 ,对 于 本 研究 的 运算 得 出 的 
A BE ABL REDE T, Be RA o 
5.2 ”关于 文献 集 收 集 方式 

本 研究 文献 集 的 获取 考虑 的 是 对 某 一 学 科 领 域 中 
具有 一 定 相 关 度 的 文献 进行 新 颖 度 的 区 分 运算 ,以 期 
待 可 以 分 区 成 功 , 具 有 一 定 范围 的 针对 性 。 对 于 通过 
自由 词 直接 查询 方法 所 搜集 的 文献 集 在 计算 结果 上 可 
能 会 有 所 不 同 ,结果 分 布 差 异 预期 会 较 明 显 。 

5.3 XF MetaMap 结果 处 理 软件 及 运算 过 程 中 的 
不 足 

由 于 MetaMap 数据 源 随 时 在 不 断 的 更 新 , 而 
MetaMap 结果 处 理 软件 为 中 国医 科大 学 医学 信息 学 院 
在 2010 年 编写 完成 ,对 于 最 新 数据 源 在 处 理 上 可 能 会 
有 标识 编码 不 同 而 导致 的 出 入 和 失误 ,两 者 处 理 上 的 
客观 误差 可 能 会 造成 一 定 的 影响 ,进而 影响 运算 结 

另外 ,人 工 去 除 的 停 用 词汇 oin] .代词 .介词 数 
字符 号 等 无 实质 意义 而 对 文章 主题 不 会 产生 影响 的 词 
汇 具 有 一 定 的 主观 性 ,可 能 会 对 结果 有 些许 的 影响 。 
同时 ,对 于 一 句 话 中 只 提取 出 一 个 自然 语言 词 的 情况 ， 
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基于 自然 语言 词 对 法 的 文献 主题 新 颖 性 探测 研 
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因 不 存在 词 对 的 形成 ,因此 本 研究 选取 删除 该 种 情况 
出 现 的 单一 自然 词 ,也 可 能 对 结果 产生 一 定 的 影响 。 
5.4 ”缺少 权重 赋值 

本 研究 过 程 中 提取 标题 和 摘要 句子 中 出 现 的 自然 
语言 词 对 ,在 进行 新 颖 度 运算 的 过 程 中 ,以 等 同 的 形式 
进行 。 但 考虑 到 标题 对 于 文章 的 重要 性 ,应 当 适 当 对 
其 赋予 一 定 的 权重 比值 ,突出 对 于 整个 文章 的 影响 。 
这 是 在 后 期 研究 中 对 于 标题 和 摘要 部 分 进行 不 同 权 值 
分 配 的 一 个 提示 。 
5.5 缺少 对 于 计算 结果 的 评估 

本 研究 计算 出 基于 自然 语言 词 对 的 文档 主题 新 颖 
度 ,但 对 于 新 颖 度 结果 的 评估 ,目前 缺乏 一 个 有 效 的 评 
估 方 法 。 笔 者 考虑 过 专家 评价 法 ,但 由 于 领域 专家 工 
作 忙 保 且 选择 人 数 较 少 并 具有 主观 性 而 未 进行 。 进 而 
LE F1000 数据 库 中 专家 评价 得 分 进行 ,但 同样 由 于 
的 测 性 及 其 维度 范畴 的 差异 ,无 法 对 新 颖 度 给 出 一 个 
汪 观 的 评价 。 同 时 作为 TREC 系统 评测 方法 中 评价 参 
区 要 和 的 基本 评价 标准 :召回 率 ( recall) ,准确 率 ( 
preci eci dio) 和 下 值 3 个 评价 指标 也 是 针对 给 出 既定 管 案 


结果 过 ee tee 
双生 到 合适 的 科学 论文 评价 指标 ”对 本 研究 结 


ERE, 

GC ABEREESE T A NEEE EBE 
MER. EA 一 定 的 可 行 性 。 

C (2 ) 文 档 主题 新 颖 度 与 FI000 推荐 文献 .引用 情况 
并 排 成 等 价 关系 ,分 属于 科技 华文 评价 的 不 同 维度 ,不 
同 范 畴 ,不 可 一 概 而 论 。 

我 们 应 该 将 主题 新 颖 度 这 一 新 指标 结合 同行 评议 
Eoo 让 他 相关 论文 评价 指标 来 对 文献 
行 综合 评价 分 析 ,选取 优质 文献 给 予 推荐 。 
在 接 下 来 的 研究 中 ,笔者 将 a RN 
同 的 “医学 主题 词 词 对 ”方法 提取 医学 主题 词 与 自然 
语言 法 对 同一 数据 集 进 行 对 ee sd 
的 优 缺 点 ,或 者 改变 数据 集 搜 集 方式 ,尝试 通过 检索 选 
取 某 一 主题 文献 获取 数据 集 ,开展 进一步 的 研究 ,同时 
将 慎重 选取 多 种 合适 的 科学 论文 评价 指标 ”对 结果 
进行 评测 。 
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> typeon the differences between citationmetrics and f1000 recom- 


I Document Theme Novelty Detection Research Based on Natural Language Pairs 
- Xu Dan Xu Shuang Chen Sisi Han Shuang Yang Ying Guo Jijun 
e Library of China Medical University, Shenyang 110122 

CN Abstract. [ Purpose/significance ] This study proposes a new quantitative indicator; document theme novelty, 
Usdeh document theme novelty detection research with natural language pairs method, to discuss the feasibility, advanta- 
gescand disadvantages as well as the novelty, and to explore its relationship among document theme novelty, F1000 recom- 
niend literature and citation index. | Method/process ] Based on the F1000, this paper selected hematology theme litera- 
tu which were recommended nearly a month, then returned to Pubmed to search closely related literatures within six 
monihs before the publication of each recommended one to constitute the whole documents. The paper defined the concept 
of malural language theme novelty and calculation formula, used Oracle database with PL/SQL programming language , and 
extracted natural language word through MetaMap software for the calculation of the document theme novelty. [ Result/ 
conclusion | There is a certain feasibility in the novelty detection of literature theme operation of natural language method. 
Document theme novelty value, F1000 recommended literature, and citation index dont show the equivalence relation. 
They belong to different dimensions and different categories of scientific papers assessment, and cannot be treated as the 
same. It suggests that document theme novelty indicator should combine with peer review, literature metrology index, and 
other related thesis evaluation indexes for comprehensive evaluation of the literature analysis, to select high quality litera- 
ture for recommendations. 
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